Praca domowa 3

Maciej Gryszkiewicz

Przeprowadzamy dekompozycję Ceteris Paribus przy pomocy pakietu dalex.

Obserwacja nr 1

Obserwacja nr 2

Obserwacja nr 3

Wnioski

Wykresy dla trzech różnych obserwacji są do siebie bardzo zbliżone, oznacza to, że w tym zbiorze danych interakcje w zasadzie nie występują. Największe różnice można zauważyć w zmiennych 'longitude' i 'latitude'. Dla przykładu, w obserwacji nr 1 możemy zaobserwować istotny drop w okolicach 0.2. Z kolei w obserwacjach nr 2 i 3 ten drop w zasadzie nie występuje. Wynika to prawdopodbnie z tego, że model znalazł jakieś klastry droższych nieruchomości w danym rejonie. Wobec tego, zmienne 'longitude' i 'latitude' muszą zmienić się jednocześnie, aby znacząco zmienić predykcję modelu.

Zastanawiający jest drop w predykowanej cenie w okolicach wartości 0.8 zmiennej 'median_income'. Wydaje się to nielogiczne, bo dlaczego osoby więcej zarabiające miałyby mieć tańsze domy. Anomalia ta prawdopodbnie wynika z małej ilości danych dla tak bogatych domostw i model w tych miejscach zaczyna 'świrować'.

Po przekopaniu się przez kilkadziesiąt rekordów, nie udało mi się znaleźć takich dwóch wierszy, dla których wyliczone dekompozycje diametralnie by się od siebie różniły (np. w jednej finalna wartość predykcji by rosła a w drugiej malała wraz ze wzrostem tej samej zmiennej).

Metoda Ceteris Paribus pozwala w czytelny sposób rozeznać się w zachowaniu modelu w zależności od każdej ze zmiennych. Wydaje się, że lepsze zastosowanie ma ona dla danych bez interakcji, można wtedy łatwiej uogólnić zachowanie modelu dla jednej obserwacji na cały zbiór. Dodatkowo, łatwość interpretacji modelu Ceteris Paribus poprawiłoby gdyby zmienne nie były przeskalowane metodą Min-Max.